home *** CD-ROM | disk | FTP | other *** search
/ Disc to the Future 2 / Disc to the Future Part II Programmer's Reference (Wayzata Technology)(6013)(1992).bin / MAC / OTHERCST / JPSRC_FO / ARCHITEC < prev    next >
Text File  |  1991-10-13  |  62KB  |  1,107 lines

  1.  
  2.     JPEG SYSTEM ARCHITECTURE        3-OCT-91
  3.  
  4.  
  5. This file provides an overview of the "architecture" of the portable JPEG
  6. software; that is, the functions of the various modules in the system and the
  7. interfaces between modules.  For more precise details about any data structure
  8. or calling convention, see the header files.
  9.  
  10. Important note: when I say "module" I don't mean "a C function", which is what
  11. some people seem to think the term means.  A separate C source file is closer
  12. to the mark.  Also, it is frequently the case that several different modules
  13. present a common interface to callers; the term "object" or "method" refers to
  14. this common interface (see "Poor man's object-oriented programming", below).
  15.  
  16. JPEG-specific terminology follows the JPEG R9 draft:
  17.   A "component" means a color channel, e.g., Red or Luminance.
  18.   A "sample" is a pixel component value (i.e., one number in the image data).
  19.   A "coefficient" is a frequency coefficient (a DCT transform output number).
  20.   The term "block" refers to an 8x8 group of samples or coefficients.
  21.   "MCU" (minimum coded unit) is the same as "MDU" of the R8 draft; i.e., an
  22.     interleaved set of blocks of size determined by the sampling factors,
  23.     or a single block in a noninterleaved scan.
  24.  
  25.  
  26. *** System requirements ***
  27.  
  28. We must support compression and decompression of both Huffman and
  29. arithmetic-coded JPEG files.  Any set of compression parameters allowed by the
  30. JPEG spec should be readable for decompression.  (We can be more restrictive
  31. about what formats we can generate.)  (Note: for legal reasons no arithmetic
  32. coding implementation is currently included in the publicly available sources.
  33. However, the architecture still supports it.)
  34.  
  35. We need to be able to handle both raw JPEG files (more specifically, the JFIF
  36. format) and JPEG-in-TIFF (C-cubed's format, and perhaps Kodak's).  Even if we
  37. don't implement TIFF ourselves, other people will want to use our code for
  38. that.  This means that generation and scanning of the file header has to be
  39. separated out.
  40.  
  41. Perhaps we should be prepared to support the JPEG lossless mode (also referred
  42. to in the spec as spatial DPCM coding).  A lot of people seem to believe they
  43. need this... whether they really do is debatable, but the customer is always
  44. right.  On the other hand, there will not be much sharable code between the
  45. lossless and lossy modes!  At best, a lossless program could be derived from
  46. parts of the lossy version.  For now we will only worry about the lossy mode.
  47.  
  48. I see no real value in supporting the JPEG progressive modes (note that
  49. spectral selection and successive approximation are two different progressive
  50. modes).  These are only of interest when painting the decompressed image in
  51. real-time, which nobody is going to do with a pure software implementation.
  52.  
  53. There is some value in supporting the hierarchical mode, which allows for
  54. successive frames of higher resolution.  This could be of use for including
  55. "thumbnail" representations.  Also, Storm's JPEG++ files probably use the
  56. hierarchical mode (I haven't looked).  However, this appears to add a lot more
  57. complexity than it is worth.
  58.  
  59. A variety of uncompressed image file formats and user interfaces must be
  60. supported.  These aspects therefore have to be kept separate from the rest of
  61. the system.  A particularly important issue is whether color quantization of
  62. the output is needed (i.e., whether a colormap is used).  We should be able to
  63. support both adaptive quantization (which requires two or more passes over the
  64. image) and nonadaptive (quantization to a prespecified colormap, which can be
  65. done in one pass).
  66.  
  67. Memory usage is an important concern, since we will port this code to 80x86
  68. and other limited-memory machines.  For large intermediate structures, we
  69. should be able to use either virtual memory or temporary files.
  70.  
  71. It should be possible to build programs that handle compression only,
  72. decompression only, or both, without much duplicate or unused code in any
  73. version.  (In particular, a decompression-only version should have no extra
  74. baggage.)
  75.  
  76.  
  77. *** Compression overview ***
  78.  
  79. The *logical* steps needed in (non-lossless) JPEG compression are:
  80.  
  81. 1. Conversion from incoming image format to a standardized internal form
  82.    (either RGB or greyscale).
  83.  
  84. 2. Color space conversion (e.g., RGB to YCbCr).  This is a null step for
  85.    greyscale (unless we support mapping color inputs to greyscale, which
  86.    would most easily be done here).  Gamma adjustment may also be needed here.
  87.  
  88. 3. Subsampling (reduction of number of samples in some color components).
  89.    This step operates independently on each color component.
  90.  
  91. 4. MCU extraction (creation of a single sequence of 8x8 sample blocks).
  92.    This step and the following ones are performed once for each scan
  93.    in the output JPEG file, i.e., once if making an interleaved file and more
  94.    than once for a noninterleaved file.
  95.    Note: both this step and the previous one must deal with edge conditions
  96.    for pictures that aren't a multiple of the MCU dimensions.  Alternately,
  97.    we could expand the picture to a multiple of an MCU before doing these
  98.    two steps.  (The latter seems better and has been adopted below.)
  99.  
  100. 5. DCT transformation of each 8x8 block.
  101.  
  102. 6. Quantization scaling and zigzag reordering of the elements in each 8x8
  103.    block.
  104.  
  105. 7. Huffman or arithmetic encoding of the transformed block sequence.
  106.  
  107. 8. Output of the JPEG file with whatever headers/markers are wanted.
  108.  
  109. Of course, the actual implementation will combine some of these logical steps
  110. for efficiency.  The trick is to keep these logical functions as separate as
  111. possible without losing too much performance.
  112.  
  113. In addition to these logical pipeline steps, we need various modules that
  114. aren't part of the data pipeline.  These are:
  115.  
  116. A. Overall control (sequencing of other steps & management of data passing).
  117.  
  118. B. User interface; this will determine the input and output files, and supply
  119.    values for some compression parameters.  Note that this module is highly
  120.    platform-dependent.
  121.  
  122. C. Compression parameter selection: some parameters should be chosen
  123.    automatically rather than requiring the user to find a good value.
  124.    The prototype only does this for the back-end (Huffman or arithmetic)
  125.    parameters, but further in the future, more might be done.  A
  126.    straightforward approach to selection is to try several values; this
  127.    requires being able to repeatedly apply some portion of the pipeline and
  128.    inspect the results (without actually outputting them).  Probably only
  129.    entropy encoding parameters can reasonably be done this way; optimizing
  130.    earlier steps would require too much data to be reprocessed (not to mention
  131.    the problem of interactions between parameters for different steps).
  132.    What other facilities do we need to support automatic parameter selection?
  133.  
  134. D. A memory management module to deal with small-memory machines.  This must
  135.    create the illusion of virtual memory for certain large data structures
  136.    (e.g., the subsampled image or the transformed coefficients).
  137.    The interface to this must be defined to minimize the overhead incurred,
  138.    especially on virtual-memory machines where the module won't do much.
  139.  
  140. In many cases we can arrange things so that a data stream is produced in
  141. segments by one module and consumed by another without the need to hold it all
  142. in (virtual) memory.  This is obviously not possible for any data that must be
  143. scanned more than once, so it won't work everywhere.
  144.  
  145. The major variable at this level of detail is whether the JPEG file is to be
  146. interleaved or not; that affects the order of processing so fundamentally that
  147. the central control module must know about it.  Some of the other modules may
  148. need to know it too.  It would simplify life if we didn't need to support
  149. noninterleaved images, but that is not reasonable.
  150.  
  151. Many of these steps operate independently on each color component; the
  152. knowledge of how many components there are, and how they are interleaved,
  153. ought to be confined to the central control module.  (Color space conversion
  154. and MCU extraction probably have to know it too.)
  155.  
  156.  
  157. *** Decompression overview ***
  158.  
  159. Decompression is roughly the inverse process from compression, but there are
  160. some additional steps needed to produce a good output image.
  161.  
  162. The *logical* steps needed in (non-lossless) JPEG decompression are:
  163.  
  164. 1. Scanning of the JPEG file, decoding of headers/markers etc.
  165.  
  166. 2. Huffman or arithmetic decoding of the coefficient sequence.
  167.  
  168. 3. Quantization descaling and zigzag reordering of the elements in each 8x8
  169.    block.
  170.  
  171. 4. MCU disassembly (conversion of a possibly interleaved sequence of 8x8
  172.    blocks back to separate components in pixel map order).
  173.  
  174. 5. (Optional)  Cross-block smoothing per JPEG section 13.10 or a similar
  175.    algorithm.  (Steps 5-8 operate independently on each component.)
  176.  
  177. 6. Inverse DCT transformation of each 8x8 block.
  178.  
  179. 7. De-subsampling.  At this point a pixel image of the original dimensions
  180.    has been recreated.
  181.  
  182. 8. Post-subsampling smoothing.  This can be combined with de-subsampling,
  183.    by using a convolution-like calculation to generate each output pixel
  184.    directly from one or more input pixels.
  185.  
  186. 9. Cropping to the original pixel dimensions (throwing away duplicated
  187.    pixels at the edges).  It is most convenient to do this now, as the
  188.    preceding steps are simplified by not having to worry about odd picture
  189.    sizes.
  190.  
  191. 10. Color space reconversion (e.g., YCbCr to RGB).  This is a null step for
  192.     greyscale.  (Note that if we support mapping color JPEG to greyscale,
  193.     it could be done as part of this step.)  Gamma adjustment may also be
  194.     needed here.
  195.  
  196. 11. Color quantization (only if a colormapped output format is requested).
  197.     NOTE: it might be better to do this on the internal color space instead of
  198.     RGB?  If so, it would need to be performed one step earlier.
  199.  
  200. 12. Writing of the desired image format.
  201.  
  202. As before, some of these will be combined into single steps.  When dealing
  203. with a noninterleaved JPEG file, steps 2-9 will be performed once for each
  204. scan; the resulting data will need to be buffered up so that step 10 can
  205. process all the color components together.
  206.  
  207. The same auxiliary modules are needed as before, except for compression
  208. parameter selection.  Note that rerunning a pipeline stage should never be
  209. needed during decompression.  This may allow a simpler control module.  The
  210. user interface might also be simpler since it need not supply any compression
  211. parameters.
  212.  
  213. As before, not all of these steps require the whole image to be stored.
  214. Actually, two-pass color quantization is the only step that logically requires
  215. this; everything else could be done a few raster lines at a time (at least for
  216. interleaved images).  We might want to make color quantization be a separate
  217. program because of this fact.
  218.  
  219. Again, many of the steps should be able to work on one color component in
  220. ignorance of the other components.
  221.  
  222.  
  223. *** Implications of noninterleaved formats ***
  224.  
  225. Much of the work can be done in a single pass if an interleaved JPEG file
  226. format is used.  With a noninterleaved JPEG file, separating or recombining
  227. the components will force use of virtual memory (on a small-memory machine,
  228. we probably would want one temp file per color component).
  229.  
  230. If any of the image formats we read or write are noninterleaved, the opposite
  231. condition might apply: processing a noninterleaved JPEG file would be more
  232. efficient.  Offhand, though, I can't think of any popular image formats that
  233. work that way; besides the win would only come if the same color space were
  234. used in JPEG and non-JPEG files.  It's not worth the complexity to make the
  235. system design accommodate that case efficiently.
  236.  
  237. An argument against interleaving is that it makes the decompressor need more
  238. memory for cross-block smoothing (since the minimum processable chunk of the
  239. image gets bigger).  With images more than 1000 pixels across, 80x86 machines
  240. are likely to have difficulty in handling this feature.
  241.  
  242. Another argument against interleaving is that the noninterleaved format allows
  243. a wider range of sampling factors, since the limit of ten blocks per MCU no
  244. longer applies.  We could get around this by blithely ignoring the spec's
  245. limit of ten blocks, but that seems like a bad idea (especially since it makes
  246. the above problem worse).
  247.  
  248. The upshot is that we need to support both interleaved and noninterleaved JPEG
  249. formats, since for any given machine and picture size one may be much more
  250. efficient than the other.  However, the non-JPEG format we convert to or from
  251. will be assumed to be an interleaved format (i.e., it produces or stores all
  252. the components of a pixel together).
  253.  
  254. I do not think it is necessary for the compressor to be able to output
  255. partially-interleaved formats (multiple scans, some of which interleave a
  256. subset of the components).  However, the decompressor must be able to read
  257. such files to conform to the spec.
  258.  
  259.  
  260. *** Data formats ***
  261.  
  262. Pipeline steps that work on pixel sample values will use the following data
  263. structure:
  264.  
  265.     typedef something JSAMPLE;        a pixel component value, 0..MAXJSAMPLE
  266.     typedef JSAMPLE *JSAMPROW;        ptr to a row of samples
  267.     typedef JSAMPROW *JSAMPARRAY;    ptr to a list of rows
  268.     typedef JSAMPARRAY *JSAMPIMAGE;    ptr to a list of color-component arrays
  269.  
  270. The basic element type JSAMPLE will be one of unsigned char, (signed) char, or
  271. unsigned short.  Unsigned short will be used if samples wider than 8 bits are
  272. to be supported (this is a compile-time option).  Otherwise, unsigned char is
  273. used if possible.  If the compiler only supports signed chars, then it is
  274. necessary to mask off the value when reading.  Thus, all reads of sample
  275. values should be coded as "GETJSAMPLE(value)", where the macro will be defined
  276. as "((value)&0xFF)" on signed-char machines and "(value)" elsewhere.
  277.  
  278. With these conventions, JSAMPLE values can be assumed to be >= 0.  This should
  279. simplify correct rounding during subsampling, etc.  The JPEG draft's
  280. specification that sample values run from -128..127 will be accommodated by
  281. subtracting 128 just as the sample value is copied into the source array for
  282. the DCT step (this will be an array of signed shorts or longs).  Similarly,
  283. during decompression the output of the IDCT step will be immediately shifted
  284. back to 0..255.  (NB: different values are required when 12-bit samples are in
  285. use.  The code should be written in terms of MAXJSAMPLE and CENTERJSAMPLE,
  286. which will be #defined as 255 and 128 respectively in an 8-bit implementation,
  287. and as 4095 and 2048 in a 12-bit implementation.)
  288.  
  289. On compilers that don't support "unsigned short", signed short can be used for
  290. a 12-bit implementation.  To support lossless coding (which allows up to
  291. 16-bit data precision) masking with 0xFFFF in GETJSAMPLE might be necessary.
  292. (But if "int" is 16 bits then using "unsigned int" is the best solution.)
  293.  
  294. Notice that we use a pointer per row, rather than a two-dimensional JSAMPLE
  295. array.  This choice costs only a small amount of memory and has several
  296. benefits:
  297.  
  298. * Code using the data structure doesn't need to know the allocated width of
  299. the rows.  This will simplify edge expansion/compression, since we can work
  300. in an array that's wider than the logical picture width.
  301.  
  302. * The rows forming a component array may be allocated at different times
  303. without extra copying.  This will simplify working a few scanlines at a time,
  304. especially in smoothing steps that need access to the previous and next rows.
  305.  
  306. * Indexing doesn't require multiplication; this is a performance win on many
  307. machines.
  308.  
  309. Note that each color component is stored in a separate array; we don't use the
  310. traditional structure in which the components of a pixel are stored together.
  311. This simplifies coding of steps that work on each component independently,
  312. because they don't need to know how many components there are.  Furthermore,
  313. we can read or write each component to a temp file independently, which is
  314. helpful when dealing with noninterleaved JPEG files.
  315.  
  316. A specific sample value will be accessed by code such as
  317.     GETJSAMPLE(image[colorcomponent][row][col])
  318. where col is measured from the image left edge, but row is measured from the
  319. first sample row currently in memory.  Either of the first two indexings can
  320. be precomputed by copying the relevant pointer.
  321.  
  322.  
  323. Pipeline steps that work on frequency-coefficient values will use the
  324. following data structure:
  325.  
  326.     typedef short JCOEF;        a 16-bit signed integer
  327.     typedef JCOEF JBLOCK[64];        an 8x8 block of coefficients
  328.     typedef JBLOCK *JBLOCKROW;        ptr to one horizontal row of 8x8 blocks
  329.     typedef JBLOCKROW *JBLOCKARRAY;    ptr to a list of such rows
  330.     typedef JBLOCKARRAY *JBLOCKIMAGE;    ptr to a list of color component arrays
  331.  
  332. The underlying type is always a 16-bit signed integer (this is "short" on all
  333. machines of interest, but let's use the typedef name anyway).  These are
  334. grouped into 8x8 blocks (we should use #defines DCTSIZE and DCTSIZE2 rather
  335. than "8" and "64").  The contents of a block may be either in "natural" or
  336. zigzagged order, and may be true values or divided by the quantization
  337. coefficients, depending on where the block is in the pipeline.
  338.  
  339. Notice that the allocation unit is now a row of 8x8 blocks, corresponding to
  340. eight rows of samples.  Otherwise the structure is much the same as for
  341. samples, and for the same reasons.
  342.  
  343. On machines where malloc() can't handle a request bigger than 64Kb, this data
  344. structure limits us to rows of less than 512 JBLOCKs, which would be a picture
  345. width of 4000 pixels.  This seems an acceptable restriction.
  346.  
  347.  
  348. On 80x86 machines, the bottom-level pointer types (JSAMPROW and JBLOCKROW)
  349. must be declared as "far" pointers, but the upper levels can be "near"
  350. (implying that the pointer lists are allocated in the DS segment).
  351. To simplify sharing code, we'll have a #define symbol FAR, which expands to
  352. the "far" keyword when compiling on 80x86 machines and to nothing elsewhere.
  353.  
  354.  
  355. The data arrays used as input and output of the DCT transform subroutine will
  356. be declared using a separate typedef; they could be arrays of "short", "int"
  357. or "long" independently of the above choices.  This would depend on what is
  358. needed to make the compiler generate correct and efficient multiply/add code
  359. in the DCT inner loops.  No significant speed or memory penalty will be paid
  360. to have a different representation than is used in the main image storage
  361. arrays, since some additional value-by-value processing is done at the time of
  362. creation or extraction of the DCT data anyway (e.g., add/subtract 128).
  363.  
  364.  
  365. *** Poor man's object-oriented programming ***
  366.  
  367. It should be pretty clear by now that we have a lot of quasi-independent
  368. steps, many of which have several possible behaviors.  To avoid cluttering the
  369. code with lots of switch statements, we'll use a simple form of object-style
  370. programming to separate out the different possibilities.
  371.  
  372. For example, Huffman and arithmetic coding will be implemented as two separate
  373. modules that present the same external interface; at runtime, the calling code
  374. will access the proper module indirectly through an "object".
  375.  
  376. We can get the limited features we need while staying within portable C.  The
  377. basic tool is a function pointer.  An "object" is just a struct containing one
  378. or more function pointer fields, each of which corresponds to a method name in
  379. real object-oriented languages.  During initialization we fill in the function
  380. pointers with references to whichever module we have determined we need to use
  381. in this run.  Then invocation of the module is done by indirecting through a
  382. function pointer; on most architectures this is no more expensive (and
  383. possibly cheaper) than a switch, which would be the only other way of making
  384. the required run-time choice.  The really significant benefit, of course, is
  385. keeping the source code clean and well structured.
  386.  
  387. For example, the interface for entropy decoding (Huffman or arithmetic
  388. decoding) might look like this:
  389.  
  390.     struct function_ptr_struct {
  391.         ...
  392.         /* Entropy decoding methods */
  393.         void (*prepare_for_scan) ();
  394.         void (*get_next_mcu) ();
  395.         ...
  396.         };
  397.  
  398.     typedef struct function_ptr_struct * function_ptrs;
  399.  
  400. The struct pointer is what will actually be passed around.  A call site might
  401. look like this:
  402.  
  403.     some_function (function_ptrs fptrs)
  404.         {
  405.         ...
  406.         (*fptrs->get_next_mcu) (...);
  407.         ...
  408.         }
  409.  
  410. (It might be worth inventing some specialized macros to hide the rather ugly
  411. syntax for method definition and call.)  Note that the caller doesn't know how
  412. many different get_next_mcu procedures there are, what their real names are,
  413. nor how to choose which one to call.
  414.  
  415. An important benefit of this scheme is that it is easy to provide multiple
  416. versions of any method, each tuned to a particular case.  While a lot of
  417. precalculation might be done to select an optimal implementation of a method,
  418. the cost per invocation is constant.  For example, the MCU extraction step
  419. might have a "generic" method, plus one or more "hardwired" methods for the
  420. most popular sampling factors; the hardwired methods would be faster because
  421. they'd use straight-line code instead of for-loops.  The cost to determine
  422. which method to use is paid only once, at startup, and the selection criteria
  423. are hidden from the callers of the method.
  424.  
  425. This plan differs a little bit from usual object-oriented structures, in that
  426. only one instance of each object class will exist during execution.  The
  427. reason for having the class structure is that on different runs we may create
  428. different instances (choose to execute different modules).
  429.  
  430. To minimize the number of object pointers that have to be passed around, it
  431. will be easiest to have just a few big structs containing all the method
  432. pointers.  We'll actually use two such structs, one for "globally" defined
  433. methods (applicable to the whole file or to all components of the current
  434. scan) and one for methods applicable to a single component.  There'll be one
  435. copy of the second kind of struct for each component of the current scan.
  436. This is necessary so that preselection of an optimal method can be done based
  437. on component-specific information (like sampling ratios...)
  438.  
  439. Because of this choice, it's best not to think of an "object" as a specific
  440. data structure.  Rather, an "object" is just a group of related methods.
  441. There would typically be one or more C modules (source files) providing
  442. concrete implementations of those methods.  You can think of the term
  443. "method" as denoting the common interface presented by some set of functions,
  444. and "object" as denoting a group of common method interfaces, or the total
  445. shared interface behavior of a group of modules.
  446.  
  447.  
  448. *** Data chunk sizes ***
  449.  
  450. To make the cost of this object-oriented style really minimal, we should make
  451. sure that each method call does a fair amount of computation.  To do that we
  452. should pass large chunks of data around; for example, the colorspace
  453. conversion method should process much more than one pixel per call.
  454.  
  455. For many steps, the most natural unit of data seems to be an "MCU row".
  456. This consists of one complete horizontal strip of the image, as high as an
  457. MCU.  In a noninterleaved scan, an MCU row is always eight samples high (when
  458. looking at samples) or one 8x8 block high (when looking at coefficients).  In
  459. an interleaved scan, an MCU row consists of all the data for one horizontal
  460. row of MCUs; this may be from one to four blocks high (eight to thirty-two
  461. samples) depending on the sampling factors.  The height and width of an MCU
  462. row may be different in each component.  (Note that the height and width of an
  463. MCU row changes at the subsampling and de-subsampling steps.  An unsubsampled
  464. image has the same size in each component.  The preceding statements apply to
  465. the subsampled dimensions.)
  466.  
  467. For example, consider a 1024-pixel-wide image using (2h:2v)(1h:1v)(1h:1v)
  468. subsampling.  In the noninterleaved case, an MCU row of Y would contain 8x1024
  469. samples or the same number of frequency coefficients, so it would occupy
  470. 8K bytes (samples) or 16K bytes (coefficients).  An MCU row of Cb or Cr would
  471. contain 8x512 samples and occupy half as much space.  In the interleaved case,
  472. an MCU row would contain 16x1024 Y samples, 8x512 Cb and 8x512 Cr samples, so
  473. a total of 24K (samples) or 48K (coefficients) would be needed.  This is a
  474. reasonable amount of data to expect to retain in memory at one time.  (Bear in
  475. mind that we'll usually need to have several MCU rows resident in memory at
  476. once, at the inputs and outputs to various pipeline steps.)
  477.  
  478. The worst case is probably (2h:4v)(1h:1v)(1h:1v) interleaving (this uses 10
  479. blocks per MCU, which is the maximum allowed by the spec).  An MCU will then
  480. contain 32 sample rows worth of Y, so it would occupy 40K or 80K bytes for a
  481. 1024-pixel-wide image.  The most memory-intensive step is probably cross-block
  482. smoothing, for which we'd need 3 MCU rows of coefficients as input and another
  483. one as output; that would be 320K of working storage.  Anything much larger
  484. would not fit in an 80x86 machine.  (To decompress wider pictures on an 80x86,
  485. we'll have to skip cross-block smoothing or else use temporary files.)
  486.  
  487. This unit is thus a reasonable-sized chunk for passing through the pipeline.
  488. Of course, its major advantage is that it is a natural chunk size for the MCU
  489. assembly and disassembly steps to work with.
  490.  
  491. For the entropy (Huffman or arithmetic) encoding/decoding steps, the most
  492. convenient chunk is a single MCU: one 8x8 block if not interleaved, three to
  493. ten such blocks if interleaved.  The advantage of this is that when handling
  494. interleaved data, the blocks have the same sequence of component membership on
  495. each call.  (For example, Y,Y,Y,Y,Cb,Cr when using (2h:2v)(1h:1v)(1h:1v)
  496. subsampling.)  The code needs to know component membership so that it can
  497. apply the right set of compression coefficients to each block.  A prebuilt
  498. array describing this membership can be used during each call.  This chunk
  499. size also makes it easy to handle restart intervals: just count off one MCU
  500. per call and reinitialize when the count reaches zero (restart intervals are
  501. specified in numbers of MCU).
  502.  
  503. For similar reasons, one MCU is also the best chunk size for the frequency
  504. coefficient quantization and dequantization steps.
  505.  
  506. For subsampling and desubsampling, the best chunk size is to have each call
  507. transform Vk sample rows from or to Vmax sample rows (Vk = this component's
  508. vertical sampling factor, Vmax = largest vertical sampling factor).  There are
  509. eight such chunks in each MCU row.  Using a whole MCU row as the chunk size
  510. would reduce function call overhead a fraction, but would imply more buffering
  511. to provide context for cross-pixel smoothing.
  512.  
  513.  
  514. *** Compression object structure ***
  515.  
  516. I propose the following set of objects for the compressor.  Here an "object"
  517. is the common interface for one or more modules having comparable functions.
  518.  
  519. Most of these objects can be justified as information-hiding modules.
  520. I've indicated what information is private to each object/module.
  521.  
  522. Note that in all cases, the caller of a method is expected to have allocated
  523. any storage needed for it to return its result.  (Typically this storage can
  524. be re-used in successive calls, so malloc'ing and free'ing once per call is
  525. not reasonable.)  Also, much of the context required (compression parameters,
  526. image size, etc) will be passed around in large common data structures, which
  527. aren't described here; see the header files.  Notice that any object that
  528. might need to allocate working storage receives an "init" and a "term" call;
  529. "term" should be careful to free all allocated storage so that the JPEG system
  530. can be used multiple times during a program run.  (For the same reason,
  531. depending on static initialization of variables is a no-no.)
  532.  
  533. 1. Input file conversion to standardized form.  This provides these methods:
  534.     input_init: read the file header, report image size & component count.
  535.     get_input_row: read one pixel row, return it in our standard format.
  536.     input_term: finish up at the end.
  537.    In implementations that support multiple input formats, input_init could
  538.    set up an appropriate get_input_row method depending on the format it
  539.    finds.  Note that in most applications, the selection and opening of the
  540.    input file will be under the control of the user interface module; and
  541.    indeed the user interface may have already read the input header, so that
  542.    all that input_init may have to do is return previously saved values.  The
  543.    behind-the-scenes interaction between this object and the user interface is
  544.    not specified by this architecture.
  545.    (Hides format of input image and mechanism used to read it.  This code is
  546.    likely to vary considerably from one implementation to another.  Note that
  547.    the color space and number of color components of the source are not hidden;
  548.    but they are used only by the next object.)
  549.  
  550. 2. Gamma and color space conversion.  This provides three methods:
  551.     colorin_init: initialization.
  552.     get_sample_rows: read, convert, and return a specified number of pixel
  553.              rows (not more than remain in the picture).
  554.     colorin_term: finish up at the end.
  555.    The most efficient approach seems to be for this object to call
  556.    get_input_row directly, rather than being passed the input data; that way,
  557.    any intermediate storage required can be local to this object.
  558.    (get_sample_rows might tell get_input_row to read directly into its own
  559.    output area and then convert in place; or it may do something different.
  560.    For example, conversion in place wouldn't work if it is changing the number
  561.    of color components.)  The output of this step is in the standardized
  562.    sample array format shown previously.
  563.    (Hides all knowledge of color space semantics and conversion.  Remaining
  564.    modules only need to know the number of JPEG components.)
  565.  
  566. 3. Edge expansion: needs only a single method.
  567.     edge_expand: Given an NxM sample array, expand to a desired size (a
  568.              multiple of the MCU dimensions) by duplicating the last
  569.              row or column.  Repeat for each component.
  570.    Expansion will occur in place, so the caller must have pre-allocated enough
  571.    storage.  (I'm assuming that it is easier and faster to do this expansion
  572.    than it is to worry about boundary conditions in the next two steps.
  573.    Notice that vertical expansion will occur only once, at the bottom of the
  574.    picture, so only horizontal expansion by a few pixels is speed-critical.)
  575.    (This doesn't really hide any information, so maybe it could be a simple
  576.    subroutine instead of a method.  Depends on whether we want to be able to
  577.    use alternative, optimized methods.)
  578.  
  579. 4. Subsampling: this will be applied to one component at a time.
  580.     subsample_init: initialize (precalculate convolution factors, for
  581.             example).  This will be called once per scan.
  582.     subsample: Given a sample array, reduce it to a smaller number of
  583.            samples using specified sampling factors.
  584.     subsample_term: clean up at the end of a scan.
  585.    If the current component has vertical sampling factor Vk and the largest
  586.    sampling factor is Vmax, then the input is always Vmax sample rows (whose
  587.    width is a multiple of Hmax) and the output is always Vk sample rows.
  588.    Vmax additional rows above and below the nominal input rows are also passed
  589.    for use by partial-pixel-averaging sampling methods.  (Is this necessary?)
  590.    At the top and bottom of the image, these extra rows are copies of the
  591.    first or last actual input row.
  592.    (This hides whether and how cross-pixel averaging occurs.)
  593.  
  594. 5. MCU extraction (creation of a single sequence of 8x8 sample blocks).
  595.     extract_init: initialize as needed.  This will be called once per scan.
  596.     extract_MCUs: convert a sample array to a sequence of MCUs.
  597.     extract_term: clean up at the end of a scan.
  598.    Given one or more MCU rows worth of image data, extract sample blocks in the
  599.    appropriate order; pass these off to subsequent steps one MCU at a time.
  600.    The input must be a multiple of the MCU dimensions.  It will probably be
  601.    most convenient for the DCT transform, frequency quantization, and zigzag
  602.    reordering of each block to be done as simple subroutines of this step.
  603.    Once a transformed MCU has been completed, it'll be passed off to a
  604.    method call, which will be passed as a parameter to extract_MCUs.
  605.    That routine might either encode and output the MCU immediately, or buffer
  606.    it up for later output if we want to do global optimization of the entropy
  607.    encoding coefficients.  Note: when outputting a noninterleaved file this
  608.    object will be called separately for each component.  Direct output could
  609.    be done for the first component, but the others would have to be buffered.
  610.    (Again, an object mainly on the grounds that multiple instantiations might
  611.    be useful.)
  612.  
  613. 6. DCT transformation of each 8x8 block.  This probably doesn't have to be a
  614.    full-fledged method, but just a plain subroutine that will be called by MCU
  615.    extraction.  One 8x8 block will be processed per call.
  616.  
  617. 7. Quantization scaling and zigzag reordering of the elements in each 8x8
  618.    block.  (This can probably be a plain subroutine called once per block by
  619.    MCU extraction; hard to see a need for multiple instantiations here.)
  620.  
  621. 8. Entropy encoding (Huffman or arithmetic).
  622.     entropy_encoder_init: prepare for one scan.
  623.     entropy_encode: accepts an MCU's worth of quantized coefficients,
  624.             encodes and outputs them.
  625.     entropy_encoder_term: finish up at end of a scan (dump any buffered
  626.                   bytes, for example).
  627.    The data output by this module will be sent to the entropy_output method
  628.    provided by the pipeline controller.  (It will probably be worth using
  629.    buffering to pass multiple bytes per call of the output method.)  The
  630.    output method could be just write_jpeg_data, but might also be a dummy
  631.    routine that counts output bytes (for use during cut-and-try coefficient
  632.    optimization).
  633.    (This hides which entropy encoding method is in use.)
  634.  
  635. 9. JPEG file header construction.  This will provide these methods:
  636.     write_file_header: output the initial header.
  637.     write_scan_header: output scan header (called once per component
  638.                if noninterleaved mode).
  639.     write_jpeg_data: the actual data output method for the preceding step.
  640.     write_scan_trailer: finish up after one scan.
  641.     write_file_trailer: finish up at end of file.
  642.    Note that compressed data is passed to the write_jpeg_data method, in case
  643.    a simple fwrite isn't appropriate for some reason.
  644.    (This hides which variant JPEG file format is being written.  Also, the
  645.    actual mechanism for writing the file is private to this object and the
  646.    user interface.)
  647.  
  648. 10. Pipeline control.  This object will provide the "main loop" that invokes
  649.     all the pipeline objects.  Note that we will need several different main
  650.     loops depending on the situation (interleaved output or not, global
  651.     optimization of encoding parameters or not, etc).  This object will do
  652.     most of the memory allocation, since it will provide the working buffers
  653.     that are the inputs and outputs of the pipeline steps.
  654.     (An object mostly to support multiple instantiations; however, overall
  655.     memory management and sequencing of operations are known only here.)
  656.  
  657. 11. Overall control.  This module will provide at least two routines:
  658.     jpeg_compress: the main entry point to the compressor.
  659.     per_scan_method_selection: called by pipeline controllers for
  660.                    secondary method selection passes.
  661.     jpeg_compress is invoked from the user interface after the UI has selected
  662.     the input and output files and obtained values for all compression
  663.     parameters that aren't dynamically determined.  jpeg_compress performs
  664.     basic initialization (e.g., calculating the size of MCUs), does the
  665.     "global" method selection pass, and finally calls the selected pipeline
  666.     control object.  (Per-scan method selections will be invoked by the
  667.     pipeline controller.)
  668.     Note that jpeg_compress can't be a method since it is invoked prior to
  669.     method selection.
  670.  
  671. 12. User interface; this is the architecture's term for "the rest of the
  672.     application program", i.e., that which invokes the JPEG compressor.  In a
  673.     standalone JPEG compression program the UI need be little more than a C
  674.     main() routine and argument parsing code; but we can expect that the JPEG
  675.     compressor may be incorporated into complex graphics applications, wherein
  676.     the UI is much more complex.  Much of the UI will need to be written
  677.     afresh for each non-Unix-like platform the compressor is ported to.
  678.     The UI is expected to supply input and output files and values for all
  679.     non-automatically-chosen compression parameters.  (Hence defaults are
  680.     determined by the UI; we should probably provide helpful routines to fill
  681.     in recommended defaults.)  The UI must also supply error handling
  682.     routines and some mechanism for trace messages.
  683.     (This module hides the user interface provided --- command line,
  684.     interactive, etc.  Except for error/message handling, the UI calls the
  685.     portable JPEG code, not the other way around.)
  686.  
  687. 13. (Optional) Compression parameter selection control.
  688.     entropy_optimize: given an array of MCUs ready to be fed to entropy
  689.               encoding, find optimal encoding parameters.
  690.     The actual optimization algorithm ought to be separated out as an object,
  691.     even though a special pipeline control method will be needed.  (The
  692.     pipeline controller only has to understand that the output of extract_MCUs
  693.     must be built up as a virtual array rather than fed directly to entropy
  694.     encoding and output.  This pipeline behavior may also be useful for future
  695.     implementation of hierarchical modes, etc.)
  696.     To minimize the amount of control logic in the optimization module, the
  697.     pipeline control doesn't actually hand over big-array pointers, but rather
  698.     an "iterator": a function which knows how to scan the stored image.
  699.     (This hides the details of the parameter optimization algorithm.)
  700.  
  701.     The present design doesn't allow for multiple passes at earlier points
  702.     in the pipeline, but allowing that would only require providing some
  703.     new pipeline control methods; nothing else need change.
  704.  
  705. 14. A memory management object.  This will provide methods to allocate "small"
  706.     things and "big" things.  Small things have to fit in memory and you get
  707.     back direct pointers (this could be handled by direct calls to malloc, but
  708.     it's cleaner not to assume malloc is the right routine).  "Big" things
  709.     mean buffered images for multiple passes, noninterleaved output, etc.
  710.     In this case the memory management object will give you room for a few MCU
  711.     rows and you have to ask for access to the next few; dumping and reloading
  712.     in a temporary file will go on behind the scenes.  (All big objects are
  713.     image arrays containing either samples or coefficients, and will be
  714.     scanned top-to-bottom some number of times, so we can apply this access
  715.     model easily.)  On a platform with virtual memory, the memory manager can
  716.     treat small and big things alike: just malloc up enough virtual memory for
  717.     the whole image, and let the operating system worry about swapping the
  718.     image to disk.
  719.  
  720.     Most of the actual calls on the memory manager will be made from pipeline
  721.     control objects; changing any data item from "small" to "big" status would
  722.     require a new pipeline control object, since it will contain the logic to
  723.     ask for a new chunk of a big thing.  Thus, one way in which pipeline
  724.     controllers will vary is in which structures they treat as big.
  725.  
  726.     The memory manager will need to be told roughly how much space is going to
  727.     be requested overall, so that it can figure out how big a buffer is safe
  728.     to allocate for a "big" object.  (If it happens that you are dealing with
  729.     a small image, you'd like to decide to keep it all in memory!)  The most
  730.     flexible way of doing this is to divide allocation of "big" objects into
  731.     two steps.  First, there will be one or more "request" calls that indicate
  732.     the desired object sizes; then an "instantiate" call causes the memory
  733.     manager to actually construct the objects.  The instantiation must occur
  734.     before the contents of any big object can be accessed.
  735.  
  736.     For 80x86 CPUs, we would like the code to be compilable under small or
  737.     medium model, meaning that pointers are 16 bits unless explicitly declared
  738.     FAR.  Hence space allocated by the "small" allocator must fit into the
  739.     64Kb default data segment, along with stack space and global/static data.
  740.     For normal JPEG operations we seem to need only about 32Kb of such space,
  741.     so we are within the target (and have a reasonable slop for the needs of
  742.     a surrounding application program).  However, some color quantization
  743.     algorithms need 64Kb or more of all-in-memory space in order to create
  744.     color histograms.  For this purpose, we will also support "medium" size
  745.     things.  These are semantically the same as "small" things but are
  746.     referenced through FAR pointers.
  747.  
  748.     The following methods will be needed:
  749.     alloc_small:    allocate an object of given size; use for any random
  750.             data that's not an image array.
  751.     free_small:    release same.
  752.     alloc_medium:    like alloc_small, but returns a FAR pointer.
  753.     free_medium:    release same.
  754.     alloc_small_sarray: construct an all-in-memory image sample array.
  755.     free_small_sarray:  release same.
  756.     alloc_small_barray,
  757.     free_small_barray:  ditto for block (coefficient) arrays.
  758.     request_big_sarray:  request a virtual image sample array.  The size
  759.                  of the in-memory buffer will be determined by the
  760.                  memory manager, but it will always be a multiple
  761.                  of the passed-in MCU height.
  762.     request_big_barray:  ditto for block (coefficient) arrays.
  763.     alloc_big_arrays:  instantiate all the big arrays previously requested.
  764.                This call will also pass some info about future
  765.                memory demands, so that the memory manager can
  766.                figure out how much space to leave unallocated.
  767.     access_big_sarray: obtain access to a specified portion of a virtual
  768.                image sample array.
  769.     access_big_barray: ditto for block (coefficient) arrays.
  770.     free_big_sarray:   release a virtual sample array.
  771.     free_big_barray:   ditto for block (coefficient) arrays.
  772.  
  773.     alloc_big_arrays will be called by the pipeline controller, which does
  774.     most of the memory allocation anyway.  The only reason for having separate
  775.     request calls is to allow some of the other modules to get big arrays.
  776.     The pipeline controller is required to give an upper bound on total future
  777.     small-array requests, so that this space can be discounted.  (A fairly
  778.     conservative estimate will be adequate.)  Future small-object requests
  779.     aren't counted; the memory manager has to use a slop factor for those.
  780.     10K or so seems to be sufficient.  (In an 80x86, small objects aren't an
  781.     issue anyway, since they don't compete for far-heap space.  "Medium"-size
  782.     objects will have to be counted separately.)
  783.  
  784.     The distinction between sample and coefficient array routines is annoying,
  785.     but it has to be maintained for machines in which "char *" is represented
  786.     differently from "int *"... on byte-addressable machines some of these
  787.     methods could point to the same code.
  788.  
  789.     The array routines will operate on only 2-D arrays (one component at a
  790.     time), since different components may require different-size arrays.
  791.  
  792.     (This object hides the knowledge of whether virtual memory is available,
  793.     as well as the actual interface to OS and library support routines.)
  794.  
  795. Note that any given implementation will presumably contain only one
  796. instantiation of input file header reading, overall control, user interface,
  797. and memory management.  Thus these could be called as simple subroutines,
  798. without bothering with an object indirection.  This is essential for overall
  799. control (which has to initialize the object structure); I'm undecided whether
  800. to impose objectness on the other three.
  801.  
  802.  
  803. *** Decompression object structure ***
  804.  
  805. I propose the following set of objects for decompression.  The general
  806. comments at the top of the compression object section also apply here.
  807.  
  808. 1. JPEG file scanning.  This will provide these methods:
  809.     read_file_header: read the file header, determine which variant
  810.               JPEG format is in use, read everything through SOF.
  811.     read_scan_header: read scan header (up through SOS).  This is called
  812.               after read_file_header and again after each scan;
  813.               it returns TRUE if it finds SOS, FALSE if EOI.
  814.     read_jpeg_data: fetch data for entropy decoder.
  815.     read_scan_trailer: finish up after one scan, prepare for another call
  816.                of read_scan_header (may be a no-op).
  817.     read_file_trailer: finish up at end of file (probably a no-op).
  818.    The entropy decoder must deal with restart markers, but all other JPEG
  819.    marker types will be handled in this object; useful data from the markers
  820.    will be extracted into data structures available to subsequent routines.
  821.    Note that on exit from read_file_header, only the SOF-marker data should be
  822.    assumed valid (image size, component IDs, sampling factors); other data
  823.    such as Huffman tables may not appear until after the SOF.  The overall
  824.    image size and colorspace can be determined after read_file_header, but not
  825.    whether or how the data is interleaved.  (This hides which variant JPEG
  826.    file format is being read.  In particular, for JPEG-in-TIFF the read_header
  827.    routines might not be scanning standard JPEG markers at all; they could
  828.    extract the data from TIFF tags.  The user interface will already have
  829.    opened the input file and possibly read part of the header before
  830.    read_file_header is called.)
  831.  
  832.    NOTE: for JFIF/raw-JPEG file format, the read_jpeg_data routine is actually
  833.    supplied by the user interface; the jrdjfif module uses read_jpeg_data
  834.    internally to scan the input stream.  This makes it possible for the user
  835.    interface module to single-handedly implement special applications like
  836.    reading from a non-stdio source.  For JPEG-in-TIFF format, the need for
  837.    random access will make it impossible for this to work; hence the TIFF
  838.    header module will probably override the UI read_jpeg_data routine.
  839.    Non-stdio input from a TIFF file will require extensive surgery to the TIFF
  840.    header module, if indeed it is practical at all.
  841.  
  842. 2. Entropy (Huffman or arithmetic) decoding of the coefficient sequence.
  843.     entropy_decoder_init: prepare for one scan.
  844.     entropy_decode: decodes and returns an MCU's worth of quantized
  845.             coefficients per call.
  846.     entropy_decoder_term: finish up after a scan (may be a no-op).
  847.    This will read raw data by calling the read_jpeg_data method (I don't see
  848.    any reason to provide a further level of indirection).
  849.    (This hides which entropy encoding method is in use.)
  850.  
  851. 3. Quantization descaling and zigzag reordering of the elements in each 8x8
  852.    block.  (This can probably be a plain subroutine called once per block;
  853.    hard to see a need for multiple instantiations here.)
  854.  
  855. 4. MCU disassembly (conversion of a possibly interleaved sequence of 8x8
  856.    blocks back to separate components in pixel map order).
  857.     disassemble_init: initialize.  This will be called once per scan.
  858.     disassemble_MCU:  Given an MCU's worth of dequantized blocks,
  859.               distribute them into the proper locations in a
  860.               coefficient image array.
  861.     disassemble_term: clean up at the end of a scan.
  862.    Probably this should be called once per MCU row and should call the
  863.    preceding two objects repeatedly to obtain the row's data.  The output is
  864.    always a multiple of an MCU's dimensions.
  865.    (An object on the grounds that multiple instantiations might be useful.)
  866.  
  867. 5. Cross-block smoothing per JPEG section 13.10 or a similar algorithm.
  868.     smooth_coefficients: Given three block rows' worth of a single
  869.                  component, emit a smoothed equivalent of the
  870.                  middle row.  The "above" and "below" pointers
  871.                  may be NULL if at top/bottom of image.
  872.    The pipeline controller will do the necessary buffering to provide the
  873.    above/below context.  Smoothing will be optional since a good deal of
  874.    extra memory is needed to buffer the additional block rows.
  875.    (This object hides the details of the smoothing algorithm.)
  876.  
  877. 6. Inverse DCT transformation of each 8x8 block.  (This can be a plain
  878.    subroutine processing one block per call.)
  879.  
  880. 7. De-subsampling and smoothing: this will be applied to one component at a
  881.    time.  Note that cross-pixel smoothing, which was a separate step in the
  882.    prototype code, will now be performed simultaneously with expansion.
  883.     unsubsample_init: initialize (precalculate convolution factors, for
  884.               example).  This will be called once per scan.
  885.     unsubsample: Given a sample array, enlarge it by specified sampling
  886.              factors.
  887.     unsubsample_term: clean up at the end of a scan.
  888.    If the current component has vertical sampling factor Vk and the largest
  889.    sampling factor is Vmax, then the input is always Vk sample rows (whose
  890.    width is a multiple of Hk) and the output is always Vmax sample rows.
  891.    Vk additional rows above and below the nominal input rows are also passed
  892.    for use in cross-pixel smoothing.  At the top and bottom of the image,
  893.    these extra rows are copies of the first or last actual input row.
  894.    (This hides whether and how cross-pixel smoothing occurs.)
  895.  
  896. 8. Cropping to the original pixel dimensions (throwing away duplicated
  897.    pixels at the edges).  This won't be a separate object, just an
  898.    adjustment of the nominal image size in the pipeline controller.
  899.  
  900. 9. Color space reconversion and gamma adjustment.
  901.     colorout_init: initialization.  This will be passed the component
  902.                data from read_file_header, and will determine the
  903.                number of output components.
  904.     color_convert: convert a specified number of pixel rows.  Input and
  905.                output are image arrays of same size but possibly
  906.                different numbers of components.
  907.     colorout_term: cleanup (probably a no-op except for memory dealloc).
  908.    In practice will always be given an MCU row's worth of pixel rows, except
  909.    at the bottom where a smaller number of rows may be left over.  Note that
  910.    this object works on all the components at once.
  911.    (Hides all knowledge of color space semantics and conversion.  Remaining
  912.    modules only need to know the number of JPEG and output components.)
  913.  
  914. 10. Color quantization (used only if a colormapped output format is requested).
  915.     We use two different strategies depending on whether one-pass (on-the-fly)
  916.     or two-pass quantization is requested.  Note that the two-pass interface
  917.     is actually designed to let the quantizer make any number of passes.
  918.     color_quant_init: initialization, allocate working memory.  In 1-pass
  919.               quantization, should call put_color_map.
  920.     color_quantize: convert a specified number of pixel rows.  Input
  921.             and output are image arrays of same size, but input
  922.             is N coefficients and output is only one.  (Used only
  923.             in 1-pass quantization.)
  924.     color_quant_prescan: prescan a specified number of pixel rows in
  925.                  2-pass quantization.
  926.     color_quant_doit: perform multi-pass color quantization.  Input is a
  927.               "big" sample image, output is via put_color_map and
  928.               put_pixel_rows.  (Used only in 2-pass quantization.)
  929.     color_quant_term: cleanup (probably a no-op except for memory dealloc).
  930.     For one-pass quantization the image is simply processed by color_quantize,
  931.     a few rows at a time.  For two-pass quantization, the pipeline controller
  932.     accumulates the output of color_convert into a "big" sample image.  The
  933.     color_quant_prescan method is invoked during this process so that the
  934.     quantizer can accumulate statistics.  At the end of the image,
  935.     color_quant_doit is called; it must rescan the "big" image and pass
  936.     converted data to the output module.  Additional scans of the image could
  937.     be made before the output pass is done (in fact, prescan could be a no-op).
  938.     As with entropy parameter optimization, the pipeline controller actually
  939.     passes an iterator function rather than direct access to the big image.
  940.     NOTE: it might be better to do this on the internal color space instead of
  941.     RGB?  If so, it would need to be performed one step earlier.
  942.     (Hides color quantization algorithm.)
  943.  
  944. 11. Writing of the desired image format.
  945.     output_init: produce the file header given data from read_file_header.
  946.     put_color_map: output colormap, if any (called by color quantizer).
  947.     put_pixel_rows: output image data in desired format.
  948.     output_term: finish up at the end.
  949.     Note that whether colormapping is needed will be determined by the user
  950.     interface object prior to method selection.  In implementations that
  951.     support multiple output formats, the actual output format will also be
  952.     determined by the user interface.
  953.     (Hides format of output image and mechanism used to write it.  Note that
  954.     several other objects know the color model used by the output format.  The
  955.     actual mechanism for writing the file is private to this object and the
  956.     user interface.)
  957.  
  958. 12. Pipeline control.  This object will provide the "main loop" that invokes
  959.     all the pipeline objects.  Note that we will need several different main
  960.     loops depending on the situation (interleaved input or not, whether to
  961.     apply cross-block smoothing or not, etc).  We may want to divvy up the
  962.     pipeline controllers into two levels, one that retains control over the
  963.     whole file and one that is invoked per scan.
  964.     This object will do most of the memory allocation, since it will provide
  965.     the working buffers that are the inputs and outputs of the pipeline steps.
  966.     (An object mostly to support multiple instantiations; however, overall
  967.     memory management and sequencing of operations are known only here.)
  968.  
  969. 13. Overall control.  This module will provide at least two routines:
  970.     jpeg_decompress: the main entry point to the decompressor.
  971.     per_scan_method_selection: called by pipeline controllers for
  972.                    secondary method selection passes.
  973.     jpeg_decompress is invoked from the user interface after the UI has
  974.     selected the input and output files and obtained values for all
  975.     user-specified options (e.g., output file format, whether to do block
  976.     smoothing).  jpeg_decompress calls read_file_header, performs basic
  977.     initialization (e.g., calculating the size of MCUs), does the "global"
  978.     method selection pass, and finally calls the selected pipeline control
  979.     object.  (Per-scan method selections will be invoked by the pipeline
  980.     controller.)
  981.     Note that jpeg_decompress can't be a method since it is invoked prior to
  982.     method selection.
  983.  
  984. 14. User interface; this is the architecture's term for "the rest of the
  985.     application program", i.e., that which invokes the JPEG decompressor.
  986.     The UI is expected to supply input and output files and values for all
  987.     operational parameters.  The UI must also supply error handling routines.
  988.     At the moment I can't think of any nonfatal errors the JPEG code is likely
  989.     to report, so a single report-this-error-and-exit method should be
  990.     sufficient.
  991.     (This module hides the user interface provided --- command line,
  992.     interactive, etc.  Except for error handling, the UI calls the portable
  993.     JPEG code, not the other way around.)
  994.  
  995. 15. A memory management object.  This will be identical to the memory
  996.     management for compression (and will be the same code, in combined
  997.     programs).  See above for details.
  998.  
  999.  
  1000. *** Initial method selection ***
  1001.  
  1002. The main ugliness in this design is the portion of startup that will select
  1003. which of several instantiations should be used for each of the objects.  (For
  1004. example, Huffman or arithmetic for entropy encoding; one of several pipeline
  1005. controllers depending on interleaving, the size of the image, etc.)  It's not
  1006. really desirable to have a single chunk of code that knows the names of all
  1007. the possible instantiations and the conditions under which to select each one.
  1008.  
  1009. The best approach seems to be to provide a selector function for each object
  1010. (group of related method calls).  This function knows about each possible
  1011. instantiation of its object and how to choose the right one; but it doesn't
  1012. know about any other objects.
  1013.  
  1014. Note that there will be several rounds of method selection: at initial startup,
  1015. after overall compression parameters are determined (after the file header is
  1016. read, if decompressing), and one in preparation for each scan (this occurs
  1017. more than once if the file is noninterleaved).  Each object method will need
  1018. to be clearly identified as to which round sets it up.
  1019.  
  1020.  
  1021. *** Implications of DNL marker ***
  1022.  
  1023. Some JPEG files may use a DNL marker to postpone definition of the image
  1024. height (this would be useful for a fax-like scanner's output, for instance).
  1025. In these files the SOF marker claims the image height is 0, and you only
  1026. find out the true image height at the end of the first scan.
  1027.  
  1028. We could handle these files as follows:
  1029. 1. Upon seeing zero image height, replace it by 65535 (the maximum allowed).
  1030. 2. When the DNL is found, update the image height in the global image
  1031.    descriptor.
  1032. This implies that pipeline control objects must avoid making copies of the
  1033. image height, and must re-test for termination after each MCU row.  This is
  1034. no big deal.
  1035.  
  1036. In situations where image-size data structures are allocated, this approach
  1037. will result in very inefficient use of virtual memory or
  1038. much-larger-than-necessary temporary files.  This seems acceptable for
  1039. something that probably won't be a mainstream usage.  People might have to
  1040. forgo use of memory-hogging options (such as two-pass color quantization or
  1041. noninterleaved JPEG files) if they want efficient conversion of such files.
  1042. (One could improve efficiency by demanding a user-supplied upper bound for the
  1043. height, less than 65536; in most cases it could be much less.)
  1044.  
  1045. Alternately, we could insist that DNL-using files be preprocessed by a
  1046. separate program that reads ahead to the DNL, then goes back and fixes the SOF
  1047. marker.  This is a much simpler solution and is probably far more efficient.
  1048. Even if one wants piped input, buffering the first scan of the JPEG file
  1049. needs a lot smaller temp file than is implied by the maximum-height method.
  1050. For this approach we'd simply treat DNL as a no-op in the decompressor (at
  1051. most, check that it matches the SOF image height).
  1052.  
  1053. We will not worry about making the compressor capable of outputting DNL.  Note
  1054. that something similar to the first scheme above could be applied if anyone
  1055. ever wants to make that work.
  1056.  
  1057.  
  1058. *** Notes for MS-DOS implementors ***
  1059.  
  1060. The standalone cjpeg and djpeg applications can be compiled in "small" memory
  1061. model, at least at the moment; as the code grows we may be forced to switch to
  1062. "medium" model.  (Small = both code and data pointers are near by default;
  1063. medium = far code pointers, near data pointers.)  Medium model will slow down
  1064. calls through method pointers, but I don't think this will amount to any
  1065. significant speed penalty.
  1066.  
  1067. When integrating the JPEG code into a larger application, it's a good idea to
  1068. stay with a small-data-space model if possible.  An 8K stack is much more than
  1069. sufficient for the JPEG code, and its static data requirements are less than
  1070. 1K.  When executed, it will typically malloc about 10K worth of near heap
  1071. space (and lots of far heap, but that doesn't count in this calculation).
  1072. This figure will vary depending on image size and other factors, but figuring
  1073. 20K should be more than sufficient.  Thus you have about 35K available for
  1074. other modules' static data and near heap requirements before you need to go to
  1075. a larger memory model.  The C library's static data will account for several K
  1076. of this, but that still leaves a good deal for your needs.  (If you are tight
  1077. on space, you could reduce JPEG_BUF_SIZE from 4K to 1K to save 3K of near heap
  1078. space.)
  1079.  
  1080. As the code is improved, we will endeavor to hold the near data requirements
  1081. to the range given above.  This does imply that certain data structures will
  1082. be allocated as FAR although they would fit in near space if we assumed the
  1083. JPEG code is stand-alone.  (The LZW tables in jrdgif/jwrgif are examples.)
  1084. To make an optimal implementation, you might want to move these structures
  1085. back to near heap if you know there is sufficient space.
  1086.  
  1087.  
  1088. *** Potential optimizations ***
  1089.  
  1090. For colormapped input formats it might be worthwhile to merge the input file
  1091. reading and the colorspace conversion steps; in other words, do the colorspace
  1092. conversion by hacking up the colormap before inputting the image body, rather
  1093. than doing the conversion on each pixel independently.  Not clear if this is
  1094. worth the uglification involved.  In the above design for the compressor, only
  1095. the colorspace conversion step ever sees the output of get_input_row, so this
  1096. sort of thing could be done via private agreement between those two modules.
  1097.  
  1098. Level shift from 0..255 to -128..127 may be done either during colorspace
  1099. conversion, or at the moment of converting an 8x8 sample block into the format
  1100. used by the DCT step (which will be signed short or long int).  This could be
  1101. selectable by a compile-time flag, so that the intermediate steps can work on
  1102. either signed or unsigned chars as samples, whichever is most easily handled
  1103. by the platform.  However, making sure that rounding is done right will be a
  1104. lot easier if we can assume positive values.  At the moment I think that
  1105. benefit is worth the overhead of "& 0xFF" when reading out sample values on
  1106. signed-char-only machines.
  1107.